智能论文笔记

Variational multiple shooting for Bayesian ODEs with Gaussian processes

Pashupati Hegde , Çağatay Yıldız , Harri Lähdesmäki , Samuel Kaski , Markus Heinonen

分类：机器学习 | (统计)机器学习

2021-06-21

最近的机器学习进展已直接从数据中直接提出了对未知连续时间系统动力学的黑盒估计。但是，较早的作品基于近似ODE解决方案或点估计。我们提出了一种新型的贝叶斯非参数模型，该模型使用高斯工艺直接从数据中直接从数据中推断出未知ODE系统的后代。我们通过脱钩的功能采样得出稀疏的变异推断，以表示矢量场后代。我们还引入了一种概率的射击增强，以从任意长的轨迹中有效推断。该方法证明了计算矢量场后代的好处，预测不确定性得分优于多个ODE学习任务的替代方法。

translated by 谷歌翻译

1st Workshop on Maritime Computer Vision (MaCVi) 2023: Challenge Results

Benjamin Kiefer , Matej Kristan , Janez Perš , Lojze Žust , Fabio Poiesi , Fabio Augusto de Alcantara Andrade , Alexandre Bernardino , Matthew Dawkins , Jenni Raitoharju , Yitong Quan

分类：计算机视觉 | 人工智能 | 机器学习 | 机器人

2022-11-24

The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.

translated by 谷歌翻译

Neural PDE Solvers for Irregular Domains

Biswajit Khara , Ethan Herron , Zhanhong Jiang , Aditya Balu , Chih-Hsuan Yang , Kumar Saurabh , Anushrut Jignasu , Soumik Sarkar , Chinmay Hegde , Adarsh Krishnamurthy

分类：机器学习

2022-11-07

Neural network-based approaches for solving partial differential equations (PDEs) have recently received special attention. However, the large majority of neural PDE solvers only apply to rectilinear domains, and do not systematically address the imposition of Dirichlet/Neumann boundary conditions over irregular domain boundaries. In this paper, we present a framework to neurally solve partial differential equations over domains with irregularly shaped (non-rectilinear) geometric boundaries. Our network takes in the shape of the domain as an input (represented using an unstructured point cloud, or any other parametric representation such as Non-Uniform Rational B-Splines) and is able to generalize to novel (unseen) irregular domains; the key technical ingredient to realizing this model is a novel approach for identifying the interior and exterior of the computational grid in a differentiable manner. We also perform a careful error analysis which reveals theoretical insights into several sources of error incurred in the model-building process. Finally, we showcase a wide variety of applications, along with favorable comparisons with ground truth solutions.

translated by 谷歌翻译

Caption supervision enables robust learners

Benjamin Feuer , Ameya Joshi , Chinmay Hegde

分类：计算机视觉

2022-10-13

Vision language (VL) models like CLIP are robust to natural distribution shifts, in part because CLIP learns on unstructured data using a technique called caption supervision; the model inteprets image-linked texts as ground-truth labels. In a carefully controlled comparison study, we show that caption-supervised CNNs trained on a standard cross-entropy loss (with image labels assigned by scanning captions for class names) can exhibit greater distributional robustness than VL models trained on the same data. To facilitate future experiments with high-accuracy caption-supervised models, we introduce CaptionNet (https://github.com/penfever/CaptionNet/), which includes a class-balanced, fully supervised dataset with over 50,000 new human-labeled ImageNet-compliant samples which includes web-scraped captions. In a series of experiments on CaptionNet, we show how the choice of loss function, data filtration and supervision strategy enable robust computer vision. We also provide the codebase necessary to reproduce our experiments at VL Hub (https://github.com/penfever/vlhub/).

translated by 谷歌翻译

Distributed Online Non-convex Optimization with Composite Regret

Zhanhong Jiang , Aditya Balu , Xian Yeow Lee , Young M. Lee , Chinmay Hegde , Soumik Sarkar

分类：机器学习 | (统计)机器学习

2022-09-21

遗憾已被广泛用作评估分布式多代理系统在线优化算法的性能的首选指标。但是，与代理相关的数据/模型变化可以显着影响决策，并需要在代理之间达成共识。此外，大多数现有的作品都集中在开发（强烈或非严格地）凸出的方法上，对于一般非凸损失的分布式在线优化中的遗憾界限，几乎没有得到很少的结果。为了解决这两个问题，我们提出了一种新型的综合遗憾，并使用新的基于网络的基于遗憾的度量标准来评估分布式在线优化算法。我们具体地定义了复合遗憾的静态和动态形式。通过利用我们的综合遗憾的动态形式，我们开发了一种基于共识的在线归一化梯度（CONGD）的伪convex损失方法，事实证明，它显示了与最佳器路径变化的规律性术语有关的透明性行为。对于一般的非凸损失，我们首先阐明了基于最近进步的分布式在线非凸学习的遗憾，因此没有确定性算法可以实现sublinear的遗憾。然后，我们根据离线优化的Oracle开发了分布式的在线非凸优化（Dinoco），而无需进入梯度。迪诺科（Dinoco）被证明是统一的遗憾。据我们所知，这是对一般分布在线非convex学习的第一个遗憾。

translated by 谷歌翻译

Thompson Sampling with Virtual Helping Agents

Kartik Anand Pant , Amod Hegde , K. V. Srinivas

分类：机器学习 | 人工智能

2022-09-16

我们解决了在线顺序决策的问题，即在利用当前知识以最大程度地提高绩效和探索新信息以使用多武器的强盗框架获得长期利益之间的权衡平衡。汤普森采样是选择解决这一探索探索困境的动作的启发式方法之一。我们首先提出了一个通用框架，该框架可帮助启发性地调整汤普森采样中的探索与剥削权衡取舍，并使用后部分布中的多个样本进行调整。利用此框架，我们为多臂匪徒问题提出了两种算法，并为累积遗憾提供了理论界限。接下来，我们证明了拟议算法对汤普森采样的累积遗憾表现的经验改善。我们还显示了所提出的算法在现实世界数据集上的有效性。与现有方法相反，我们的框架提供了一种机制，可以根据手头的任务改变探索/开发量。为此，我们将框架扩展到两个其他问题，即，在土匪中最佳的ARM识别和时间敏感学习，并将我们的算法与现有方法进行比较。

translated by 谷歌翻译

On The Computational Complexity of Self-Attention

Feyza Duman Keles , Pruthuvi Mahesakya Wijewardena , Chinmay Hegde

分类：机器学习

2022-09-11

变压器体系结构在许多最新应用程序中取得了显着进展。然而，尽管他们取得了成功，但现代变形金刚依赖于自我发挥的机制，其时间和空间复杂性在输入的长度上是二次的。已经提出了几种方法来加快自我注意力的机制以实现次级运行时间。但是，这些作品中的绝大多数并不伴随着严格的错误保证。在这项工作中，我们在许多情况下就自我注意的计算复杂性建立了下限。我们证明，自我注意力的时间复杂性在输入长度上必定是二次的，除非强烈的指数时间假设（SETH）是错误的。即使注意力计算仅执行大约和各种注意力机制，该论点也存在。作为对我们的下限的补充，我们表明确实可以使用有限的泰勒级数在线性时间中近似点产物自我发作，而成本依赖于多项式顺序。

translated by 谷歌翻译

Metaverse for Healthcare: A Survey on Potential Applications, Challenges and Future Directions

Rajeswari Chengoden , Nancy Victor , Thien Huynh-The , Gokul Yenduri , Rutvij H. Jhaveri , Mamoun Alazab , Sweta Bhattacharya , Pawan Hegde , Praveen Kumar Reddy Maddikunta , Thippa Reddy Gadekallu

分类：人工智能

2022-09-09

数字化和自动化方面的快速进步导致医疗保健的加速增长，从而产生了新型模型，这些模型正在创造新的渠道，以降低成本。 Metaverse是一项在数字空间中的新兴技术，在医疗保健方面具有巨大的潜力，为患者和医生带来了现实的经验。荟萃分析是多种促成技术的汇合，例如人工智能，虚拟现实，增强现实，医疗设备，机器人技术，量子计算等。通过哪些方向可以探索提供优质医疗保健治疗和服务的新方向。这些技术的合并确保了身临其境，亲密和个性化的患者护理。它还提供自适应智能解决方案，以消除医疗保健提供者和接收器之间的障碍。本文对医疗保健的荟萃分析提供了全面的综述，强调了最新技术的状态，即采用医疗保健元元的能力技术，潜在的应用程序和相关项目。还确定了用于医疗保健应用的元元改编的问题，并强调了合理的解决方案作为未来研究方向的一部分。

translated by 谷歌翻译

Lip-to-Speech Synthesis for Arbitrary Speakers in the Wild

Sindhu B Hegde , K R Prajwal , Rudrabha Mukhopadhyay , Vinay P Namboodiri , C. V. Jawahar

分类：计算机视觉 | 自然语言处理

2022-09-01

在这项工作中，我们解决了为野外任何演讲者发出静音唇部视频演讲的问题。与以前的作品形成鲜明对比的是，我们的方法（i）不仅限于固定数量的扬声器，（ii）并未明确对域或词汇构成约束，并且（iii）涉及在野外记录的视频，反对实验室环境。该任务提出了许多挑战，关键是，所需的目标语音的许多功能（例如语音，音调和语言内容）不能完全从无声的面部视频中推断出来。为了处理这些随机变化，我们提出了一种新的VAE-GAN结构，该结构学会了将唇部和语音序列关联到变化中。在指导培训过程的多个强大的歧视者的帮助下，我们的发电机学会了以任何人的唇部运动中的任何声音综合语音序列。多个数据集上的广泛实验表明，我们的优于所有基线的差距很大。此外，我们的网络可以在特定身份的视频上进行微调，以实现与单扬声器模型相当的性能，该模型接受了$ 4 \ times $ $数据的培训。我们进行了大量的消融研究，以分析我们体系结构不同模块的效果。我们还提供了一个演示视频，该视频与我们的网站上的代码和经过训练的模型一起展示了几个定性结果： -合成}}

translated by 谷歌翻译

HTML版本

Extreme-scale Talking-Face Video Upsampling with Audio-Visual Priors

Sindhu B Hegde , Rudrabha Mukhopadhyay , Vinay P Namboodiri , C. V. Jawahar

分类：计算机视觉

2022-08-17

在本文中，我们探讨了一个有趣的问题，即从$ 8 \ times8 $ Pixel视频序列中获得什么。令人惊讶的是，事实证明很多。我们表明，当我们处理此$ 8 \ times8 $视频带有正确的音频和图像先验时，我们可以获得全长的256 \ times256 $视频。我们使用新颖的视听UPPRAPLING网络实现了极低分辨率输入的$ 32 \ times $缩放。音频先验有助于恢复元素面部细节和精确的唇形，而单个高分辨率目标身份图像先验为我们提供了丰富的外观细节。我们的方法是端到端的多阶段框架。第一阶段会产生一个粗糙的中间输出视频，然后可用于动画单个目标身份图像并生成逼真，准确和高质量的输出。我们的方法很简单，并且与以前的超分辨率方法相比，表现非常好（$ 8 \ times $改善了FID得分）。我们还将模型扩展到了谈话视频压缩，并表明我们在以前的最新时间上获得了$ 3.5 \ times $的改进。通过广泛的消融实验（在论文和补充材料中）对我们网络的结果进行了彻底的分析。我们还在我们的网站上提供了演示视频以及代码和模型：\ url {http://cvit.iiit.ac.in/research/project/projects/cvit-projects/talking-face-vace-video-upsmpling}。

translated by 谷歌翻译